RI-TAL : le TAL au service de la RI
نویسندگان
چکیده
How may Natural Language Processing serve Information Retrieval? This paper provides some clues in the context of the implementation of a search engine within an industrial application, TokTokTok, that gathers a large set of heterogeneous data about products of many kinds. We demonstrate that the enrichment of the database by semantic treatments improves the results of the search engine. On the other side, the integration of these semantic data into the core of the Information Retrieval system proves to be less effective. Using the NLP as preprocessing of IR thus reveals itself as more relevant than its deeper integration. MOTS-CLÉS : Recherche d’Information, Traitement Automatique des Langues, ElasticSearch, Application industrielle.
منابع مشابه
Vectorisation, Okapi et calcul de similarité pour le TAL : pour oublier enfin le TF-IDF (Vectorization, Okapi and Computing Similarity for NLP : Say Goodbye to TF-IDF) [in French]
RÉSUMÉ Dans cette prise de position, nous nous intéressons au calcul de similarité (ou distances) entre textes, problématique présente dans de nombreuses tâches de TAL. Nous nous efforçons de montrer que ce qui n’est souvent qu’un composant dans des systèmes plus complexes est parfois négligé et des solutions sous-optimales sont employées. Ainsi, le calcul de similarité par TF-IDF/cosinus est s...
متن کاملVariabilité des performances des outils de TAL et genre textuel
RÉSUMÉ. Nous rapportons dans cet article un ensemble de résultats liés à la mise au point d’une base de marqueurs de relations lexicales pour un outil d’aide à la réalisation d’ontologies à partir de textes, CAMÉLÉON. L’évaluation de ces patrons sur huit corpus différents montre une grande variation de leurs performances selon le corpus testé. Cela nous conduit à deux sortes de conclusions : 1....
متن کاملApplying a family of IR models to text description-based service retrieval
In the study reported in this paper, we apply a family of Information Retrieval (IR) models to overcome the problem of retrieving services, whose descriptions match users’ queries given in a free text style. This family is composed by four models which have not been applied in prior research on IR-based service discovery. The two first models are based on matrix factorisation models applied to ...
متن کاملANTICOAGULANT SCREENING OF MARINE ALGAE FROM MEXICO, AND PARTIAL CHARACTERIZATION OF THE ACTIVE SULFATED POLYSACCHARIDE FROM Ei
Mu ñoz-Ochoa, M., J. I. Mu ri llo-Alva rez, Y. E. Ro drí guez-Mon te si nos, G. Her nán dez-Car mo na, D. L. Arvi zu-Hi gue ra, J. Pe ral ta-Cruz & J. Li zar di-Men do za De par ta men to de De sa rro llo de Tec no lo gías, Cen tro Inter dis ci pli na rio de Cien cias Ma ri nas, Insti tu to Po li téc ni co Na cio nal. Apar ta do Pos tal 592. 23000 La Paz, Mé xi co. 2 De par ta men to de Quí mi ...
متن کاملFiltered Composition and Markers for a Flexible Edit-Distance. Application to the Correction of Out-Of-Vocabulary Words
RÉSUMÉ. Nous présentons une implémentation flexible et originale de la distance d’édition : la composition filtrée, un type particulier de composition de deux machines à états finis au travers d’un filtre qui modélise l’ensemble des opérations d’édition valides. Le filtre est un transducteur pondéré ou une cascade de transducteurs pondérés. Il est obtenu par compilation de règles de réécriture ...
متن کامل